{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "'''\n",
    "@Desc  : \n",
    "@Date  : 2019/2/16\n",
    "@Author: zhangjianfeng \n",
    "'''\n",
    "\n",
    "'''\n",
    "1.语料清洗\n",
    "2.分词\n",
    "3.词性标注\n",
    "特征工程\n",
    "\n",
    "词袋模型（Bag of Word, BOW)，即不考虑词语原本在句子中的顺序，\n",
    "直接将每一个词语或者符号统一放置在一个集合（如 list），然后按照计数的方式对出现的次数进行统计。统计词频这只是最基本的方式，TF-IDF 是词袋模型的一个经典用法。\n",
    "\n",
    "词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是 One-hot，这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小，\n",
    "其中绝大多数元素为 0，只有一个维度的值为 1，这个维度就代表了当前的词\n",
    "\n",
    "Word2Vec:\n",
    "包含跳字模型（Skip-Gram）和连续词袋模型（Continuous Bag of Words，简称 CBOW）\n",
    "以及两种高效训练的方法：负采样（Negative Sampling）和层序 Softmax（Hierarchical Softmax）\n",
    "Word2Vec 词向量可以较好地表达不同词之间的相似和类比关系。除此之外，还有一些词向量的表示方式，如 Doc2Vec、WordRank 和 FastText 等\n",
    "\n",
    "常见的特征选择方法主要有 DF、 MI、 IG、 CHI、WLLR、WFO 六种。\n",
    "DF(Document Frequency)\n",
    "DF:统计特征词出现的文档数量，用来衡量某个特征词的重要性\n",
    "MI(Mutual Information)：互信息法用于衡量特征词与文档类别直接的信息量\n",
    "IG(Information Gain)：信息增益法，通过某个特征词的缺失与存在的两种情况下，语料中前后信息的增加，衡量某个特征词的重要性。\n",
    "CHI(Chi-square)：CHI特征选择算法利用了统计学中的\"假设检验\"的基本思想\n",
    "WLLR(Weighted Log Likelihood Ration)\n",
    "WFO（Weighted Frequency and Odds）\n",
    "\n",
    "'''\n",
    "\n",
    "'''\n",
    "过拟合：模型学习能力太强，以至于把噪声数据的特征也学习到了，导致模型泛化能力下降，在训练集上表现很好，但是在测试集上表现很差。\n",
    "解决办法：\n",
    "增大数据的训练量；\n",
    "增加正则化项，如 L1 正则和 L2 正则；\n",
    "特征选取不合理，人工筛选特征和使用特征选择算法；\n",
    "采用 Dropout 方法等。\n",
    "\n",
    "Dropout说的简单一点就是：我们在前向传播的时候，让某个神经元的激活值以一定的概率p停止工作，这样可以使模型泛化性更强，因为它不会太依赖某些局部的特征\n",
    "'''\n",
    "\n",
    "'''\n",
    "欠拟合：就是模型不能够很好地拟合数据，表现在模型过于简单。\n",
    "\n",
    "常见的解决方法有：\n",
    "\n",
    "添加其他特征项；\n",
    "增加模型复杂度，比如神经网络加更多的层、线性模型通过添加多项式使模型泛化能力更强；\n",
    "减少正则化参数，正则化的目的是用来防止过拟合的，但是现在模型出现了欠拟合，则需要减少正则化参数。\n",
    "\n",
    "\n",
    "评价指标：错误率、精度、准确率、精确度、召回率、F1 衡量。\n",
    "ROC 曲线、AUC 曲线\n",
    "\n",
    "\n",
    "ROC 曲线的意义有以下几点：\n",
    "\n",
    "ROC 曲线能很容易的查出任意阈值对模型的泛化性能影响；\n",
    "有助于选择最佳的阈值；\n",
    "可以对不同的模型比较性能，在同一坐标中，靠近左上角的 ROC 曲所代表的学习器准确性最高。\n",
    "\n",
    "模型线上应用，目前主流的应用方式就是提供服务或者将模型持久化。\n",
    "第一就是线下训练模型，然后将模型做线上部署，发布成接口服务以供业务系统使用。\n",
    "第二种就是在线训练，在线训练完成之后把模型 pickle 持久化，然后在线服务接口模板通过读取 pickle 而改变接口服务。\n",
    "\n",
    "\n",
    "'''"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.8"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
